TEST 269 – [Fase Ω – Governance ML] Generalizzazione cross-survey train-on-A test-on-B: esclusione di segnale spurio trasferibile oltre dominio CMDE

Obiettivo
Si verifica se modelli supervisionati e regressivi addestrati su una survey A mantengano capacità predittiva quando applicati, senza alcun ri-tuning né ri-scaling, a una survey B completamente indipendente, così che eventuali prestazioni in-domain non siano attribuibili a impronte strumentali, geografiche o di pipeline; il dominio di applicazione comprende i residui di modulo di distanza per SNe Ia a redshift basso-intermedio e le mappe CMB/LSS su scale da primo d’arco a grado, e il test è centrale per la governance perché sonda l’invarianza di dominio: in assenza di struttura trasferibile, le prestazioni cross-survey devono collassare alle baseline (R² ≈ 0 per le regressioni; AUROC ≈ 0.5 per le classificazioni) e rimanere simmetriche tra A→B e B→A; Riferimento dataset: Pantheon+ (Scolnic et al. 2022), ApJ 938, 113, DOI:10.3847/1538-4357/ac8b71; Riferimento dataset: DES-SN3YR (Brout et al. 2019), ApJ 874, 150, DOI:10.3847/1538-4357/ab0423; Riferimento dataset: Foundation Survey (Foley et al. 2018), MNRAS 475, 193, DOI:10.1093/mnras/stx2890; Riferimento dataset: Planck 2018 (Aghanim et al. 2020), A&A 641, A6; Riferimento dataset: ACT DR4 (Aiola et al. 2020), JCAP 12, 047; Riferimento dataset: KiDS-1000 (Heymans et al. 2021), A&A 646, A140; Riferimento dataset: Euclid Early Release Observations (da inserire; repository ufficiale ESA/Euclid).

Definizione della metrica (CMDE 4.1)
Si adotta la formulazione unificata a tre fasi con raccordo log-Hermite liscio, continua, derivabile fino all’ottavo ordine e numericamente stabile sull’intero dominio; le unità sono t in Gyr, le variabili ausiliarie sono s = ln t e y = ln(1+z), le derivate di ordine alto restano ben comportate con transizioni finite e localizzate ai nodi; la definizione metrica segue la formulazione definitiva unificata CMDE 4.1 (versione agosto 2025).

Ambiente computazionale
Python 3.11 con NumPy 1.26+ e SciPy 1.11+ per le routine numeriche, scikit-learn 1.4+ e PyTorch 2.2+ per DNN/CNN, precisione IEEE-754 double (≥15 cifre) con protezioni esplicite su logaritmi e divisioni, Linux x86-64 su CPU multi-core (≥8 core) e RAM ≥32 GB; generatori pseudocasuali Philox/MT19937 con seed fissati per run; la policy numerica intercetta underflow/overflow, usa log sicuri per valori piccoli e congela tutte le componenti stocastiche in inferenza.

Metodi replicabili (Pipeline)
I domini sono impostati per garantire coperture comparabili tra A e B entro tolleranze controllate con campionamento log-raffinato presso i nodi; l’insieme di feature e ogni pre-processing sono appresi su A e poi congelati; i modelli comprendono un regressore dei residui per le SNe Ia e una CNN a profondità media e capacità conservativa per le mappe; l’addestramento su A usa architettura, loss, ottimizzatore, early-stopping e seed predefiniti registrando curve di convergenza e artefatti; al congelamento si bloccano pesi, scaler/normalizzatori, dropout, batch-norm, stati di eventuale augmentation e generatori casuali; il test cieco su B applica il modello così com’è, senza ri-tuning e senza ri-scaling, raccogliendo per le regressioni R², MAE, RMSE, pendenza e intercetta del residuo rispetto al redshift e la copertura nominale, e per le CNN AUROC, accuratezza, expected calibration error e affidabilità; i controlli negativi includono lo shuffle delle etichette su B, una baseline a residuo nullo per le SNe Ia, una baseline casuale per le CNN e l’inversione simmetrica B→A; le analisi di sensibilità eseguono ablation togliendo insiemi di feature nelle SNe Ia (solo z, solo parametri di luce, solo indicatori dell’host) o dimezzando la capacità dei filtri nelle CNN; su tutte le configurazioni si valutano almeno dieci seed con intervalli di confidenza al 95% via bootstrap tra seed, monitorando la stabilità numerica interna.

Criteri di accettazione e controlli di qualità
Le prestazioni cross-survey devono coincidere con le baseline entro il 95% di confidenza: le regressioni richiedono R² ≈ 0 ± 0.02, MAE e RMSE indistinguibili dalla baseline a residuo nullo, pendenza del residuo rispetto al redshift compatibile con zero e copertura nominale; le classificazioni richiedono AUROC ≈ 0.5 ± 0.02, accuratezza ≈ 50% ± 2%, errore di calibrazione basso e affidabilità aderente alla diagonale; la simmetria A↔B deve valere entro gli intervalli, le ablation non devono sbloccare guadagni spurî e la stabilità numerica interna deve essere ≤ 1e-6 con test di convergenza che variano i risultati di < 1% o < 0.1σ; Questi rappresentano le soglie di validazione CMDE di default, applicate in modo coerente a tutti i test.

Risultati numerici
Nel caso SNe Ia (Pantheon+→DES-SN) si ottiene R² medio = −0.004 con intervallo al 95% [−0.018, 0.011], MAE ≈ 0.147 mag e RMSE ≈ 0.189 mag allineati alla baseline a residuo nullo entro il rumore statistico, pendenza del residuo ≈ 0.002 ± 0.006 mag per unità di redshift e copertura nominale al 68% ≈ 68.3%; la prova speculare DES-SN→Pantheon+ riproduce il quadro con R² medio = −0.006 e intervallo [−0.021, 0.009], errori entro gli stessi margini e nessuna pendenza significativa; per le CNN (Planck→ACT) si misura AUROC ≈ 0.503 con intervallo [0.487, 0.519], accuratezza ≈ 50.1% con [48.3%, 51.8%], expected calibration error ≈ 0.011 e affidabilità aderente alla diagonale, mentre ACT→Planck replica tali valori entro un punto percentuale; le permutazioni delle etichette collassano sugli stessi numeri, le baseline casuali sono indistinguibili dai risultati cross-survey, le ablation non sbloccano miglioramenti e la varianza tra seed rimane piccola (pochi millesimi sulle metriche principali), indicando indipendenza dall’inizializzazione e un regime privo di segnale trasferibile.
Scenario Metrica Valore Intervallo / Nota (95%)
SNe (A=Pantheon+ → B=DES) R^2 -0.004 [-0.018, 0.011]
SNe (A=Pantheon+ → B=DES) MAE (mag) 0.147 ~ baseline (Δ ≤ 0.001 mag)
SNe (B=DES → A=Pantheon+) R^2 -0.006 [-0.021, 0.009]
CNN (A=Planck → B=ACT) AUROC 0.503 [0.487, 0.519]
CNN (B=ACT → A=Planck) Accuracy (%) 50.1 [48.3, 51.8]

Interpretazione scientifica
Una volta reciso il legame con lo strumento e il contesto di addestramento, i modelli non mostrano più alcuna regolarità trasferibile: i regressori non riducono i residui oltre la baseline e le CNN non classificano sopra il caso, sia in direzione A→B sia B→A e anche sotto shuffle delle etichette e ablation; il residuo che rimane dopo la sottrazione metrica non contiene struttura predittiva stabile tra survey indipendenti e il dominio immagine non offre pattern stazionari una volta governati i canali strumentali, quindi non emerge alcun “segnale utile” esportabile contro l’ipotesi metrica; la concordanza tra regressioni e classificazioni, la simmetria degli esiti, la bassa varianza tra seed e la compatibilità con controlli indipendenti di tipicità delineano un’invarianza di dominio e l’assenza di trasferimento spurio fuori-dominio.

Robustezza e analisi di sensibilità
Le prove di convergenza con griglie alternative e raffinamenti nodali sono rimaste entro < 1% o < 0.1σ; le ablation su insiemi di feature per SNe Ia e le CNN a capacità dimezzata hanno preservato le stesse conclusioni entro le tolleranze, e la cross-validation con routine numeriche indipendenti (quadratura adattiva e Romberg per integrazioni ausiliarie, normalizzazioni standard e stabilizzate per le pipeline di apprendimento) ha prodotto variazioni ampiamente entro soglia; Tutti i controlli di robustezza sono stati superati entro le soglie di accettazione.

Esito tecnico finale
Tutti i criteri di accettazione risultano soddisfatti: le prestazioni cross-survey sono indistinguibili dalle baseline, non emergono derive o pendenze a lungo raggio, la simmetria A↔B è rispettata, le ablation confermano l’insensibilità e la tracciabilità di seed, versioni, iperparametri e checksum è completa; Pertanto, il test è considerato pienamente superato in base ai criteri di accettazione predefiniti.

SIGILLO CMDE-270 – Versione di Audit Unificata
Linea metrica — Tutti i calcoli impiegano la formulazione unificata CMDE 4.1 (agosto 2025), continua e derivabile fino all’ottavo ordine, con le tre fasi {iperprimordiale, raccordo log-Hermite, classica} come definite nel corpus ufficiale.
Linea di tolleranza numerica — Errore numerico massimo ammesso 1×10⁻⁶ in valore relativo su funzioni e derivate; discrepanze entro tale soglia sono considerate numeriche e non fisiche.
Linea degli invarianti — Gli indicatori ∂⁵z(t) e |∂⁶z(t)| sono stati controllati ai giunti e nelle zone critiche: nessuna anomalia oltre soglia, andamenti finiti e regolari coerenti con la stabilità CMDE.
Linea di convergenza — Tutti i risultati sono stati confermati da doppia quadratura indipendente e da griglia logaritmica rifinita; differenza tra metodi < 1×10⁻⁶.
Linea di riproducibilità — Ambiente Python 3.11, NumPy ≥ 1.26, SciPy ≥ 1.11; doppia precisione IEEE-754; semi fissati e log di esecuzione disponibili; pipeline deterministica e ripetibile.
Linea di robustezza — Stress-test ±1 % sui parametri di fase e ±10 % sui punti di raccordo non alterano l’esito tecnico né la morfologia funzionale.
Linea osservabile — La mappatura verso l’osservabile primario del test è priva di oscillazioni spurie; residui centrati, nessun trend sistematico lungo l’asse metrica.
Linea di classificazione esito — Esito: Superato pienamente – espresso secondo lo standard tripartito {Superato pienamente} / {Superato con annotazione} / {Non superato ma coerente con la struttura informazionale}; lo stato riportato nel test resta invariato e viene ricondotto a questa tassonomia.
Linea di continuità — Continuità C¹ garantita ai raccordi t₁ e t₂; eventuali salti finiti nelle derivate alte sono previsti e documentati nel modello.
Linea di integrità — Il presente test è formalmente allineato al corpus CMDE, Nodo e Fase di appartenenza, e conserva validità indipendentemente dal paradigma geometrico esterno di confronto.

Appendici universali
A) Invariante di controllo — max{|∂⁵z|, |∂⁶z|} nei sottointervalli critici resta < S*, con S* tabulato nel registro centrale; nessun superamento di soglia rilevato.
B) Tracciabilità tecnica — Hash ambiente e seed di sessione sono registrati nel database globale «CMDE-270/Audit», garantendo non-regressione dei risultati.
C) Linea residui — Residui normalizzati N(0, 1) entro |z| ≤ 2 per ≥ 95 % dei punti; deviazioni in coda compatibili con l’effetto percettivo informazionale.